30 research outputs found

    Hashtag ErschlieĂźung

    Get PDF
    The paper addresses some of the latest developments in the field of cataloguing and presents a critical reflection on the state and possible future of the subject area of descriptive cataloguing and indexing all in all. Some historical examples are given to show the influence of librarian’s ideas for the solution of real world problems. These examples are set against the actual impression that the members of the library profession in Germany tend to substitute their own established professional standards against those given by non-professionals rather to strive for their further development. This effect can be observed particularly in the area of information technology applications

    Mathematical multiword phrases Seite 1 Detecting multiword phrases in mathematical text corpora

    Get PDF
    Abstract We present an approach for detecting multiword phrases in mathematical text corpora. The method used is based on characteristic features of mathematical terminology. It makes use of a software tool named Lingo which allows to identify words by means of previously defined dictionaries for specific word classes as adjectives, personal names or nouns. The detection of multiword groups is done algorithmically. Possible advantages of the method for indexing and information retrieval and conclusions for applying dictionary-based methods of automatic indexing instead of stemming procedures are discussed. Problems and goals We start by discussing an example. Given is the text of an abstract for a paper with mathematical content 1 : "We study some rigidity properties for locally symmetrical Finsler manifolds. We obtain the local equivalent characterization for a Finsler manifold to be locally symmetric and prove that any locally symmetrical Finsler manifold with nonzero flag curvature must be Riemannian. We also generalize a rigidity result due to Akbar Zadeh." Looking for methods that will generate index terms automatically and that will have good representation and equally discrimination properties for retrieval purposes, the following question may be of interest: Which of the words are part of a multiword phrase representing a mathematical concept or a proper entity of mathematical terminology? Intellectual analysis can identify the following phrases: • rigidity properties • locally symmetrical Finsler manifold(s) • local equivalent characterization • nonzero flag curvature • rigidity result We have cited the respective longest sequences with a proper meaning. These sequences can contain shorter ones with normally a generic superordinated meaning. Next, we ask the following questions. Is it possible to identify sequences by applying automatic techniques? Is it possible to identify as much as possible sequences of words that can be seen as representations of mathematical concepts? Is it possible to avoid identification of almost all sequences 1 Abstract taken from the database Zentralblatt MATH (http://www.zentralblatt-math.org/zmath/) with permission of the editorial staff. Mathematical multiword phrases Seite 2 that must be seen as senseless or do not have a special mathematical meaning? For example, is it possible to differentiate between the word groups local equivalent characterization and locally symmetrical Finsler manifold by avoiding the first one for its more general character and to generate the second one? Is it further on possible to identify differently written words like characterization or characterisation as conceptually equivalent? Purely algorithmic methods of automatic indexing are normally not suited to build clusters of meaningful multiword sequences. They can identify words as character strings with an additional treatment of suffix variations applying stemming methods. Using for example the well-known Porter stemmer for treating the string locally symmetrical Finsler manifold leads to the following result 2 : This result does not contain the information that the four words are parts of a conceptual unit. With the aid of a positional index it is possible to identify adjacent words but only if they are formulated in a search string by the searcher. Commonly used procedures cannot distinguish between different word classes like nouns, verbs, adjectives and others. Such a differentiation requires dictionaries with an encoding of word classes. For mathematical text additionally important is a sound identification of proper names used, e.g. special mathematical terms and personal names. We use a method of automatic indexing that identifies words and word classes on the basis of previously built dictionaries. These dictionaries additionally contain encodings of the suffix behavior of the word classes. Applying the method with these preconditions will show that the answer to our questions mostly will be positive. Characteristics of mathematical terminology Mathematical text and terminology is characterized by features that are different from other disciplines. We will give a short overview, more detailed discussions can be found in literature (Gödert, 1980; A striking fact for any non-mathematician is the extensive use of words which are quite familiar in everyday language, but with a quite different meaning, for example: • field, group, ring, tree, wood, sheaf, chain, root, convolution, family, hull, order, trace • independent, free, normal, entire, ordinary, compact, open, regular, weak, strong, flabby, etc. This leads to derived terms like normal family or flabby sheaf, combining an adjective with a noun in order to represent a proper concept. Beside this, there are also words which are used exclusively by mathematicians in a mathematical context, like diffeomorphism, homeomorphism, eigenvector, etc. For our identification purposes two observations are important. First, it can be observed that a substantial part of mathematical concepts can be described as compounds of adjectives and nouns, e.g. • distributive algebraic lattice 2 Performed using the Website http://snowball.tartarus.org/demo.php. • divergent quasilinear parabolic equation • fourth order nonlinear differential equation • double-extended quasi-likelihood estimator • dynamic fourth order partial differential equations • doubly periodic three-dimensional travelling water waves • nonlinear parabolic-hyperbolic partial differential equation Almost any technical terminology of a scientific discipline uses compounds of adjectives and nouns for a generic specification of the nouns' meanings. Comparatively rare, this is done by two or more adjectives as is often the case in the mathematical terminology. The total amount of concepts or subjects of investigation that are represented by multiword sequences is not known. It seems to be far greater than in most other scientific disciplines. Secondly, it can be observed that many mathematical concepts are named by their inventors in form of so-called eponyms: Combining eponyms with adjective-noun-sequences can lead to expressions such as: • dixmier approximation theorem • einstein-yang-mills-higgs equations • einstein-maxwell-gauss-bonnet black hole • ergodic hamilton-jacobi-bellman equation • kottler schwarzschild-anti de sitter space-time • generalized mizoguchi-takahashi's fixed point theorem Very often such eponyms are formulated in form of adjectives that are derived from the corresponding names, e.g. • abelian Sometimes we can also find forms of substantiation: It seems desirable to use a technique that can identify the eponym variant galoisian by some form of derivation from a dictionary entry galois instead of lexicalizing any of these variants. We will see later how this can be done technically. Mathematical multiword phrases Seite 3 Mathematical multiword phrases Seite Two cases of homonymy can be observed. Some words have a different meaning in a mathematical context than in everyday situations. Once more the aforementioned practice of different encodings in dictionaries can be used to distinguish the different meanings. Within the context of mathematical texts, this case does not challenge. As we will see later in more detail, one can specify a priority for using different dictionaries. As a result, a word can be identified at first as part of a specialized terminology and only in the case of non-identification as part of everyday language. The second one is an inner-mathematical ambiguity, formed by concepts which occur in different mathematical disciplines, e.g. k-theory (general topology) (algebraic topology) (algebraic geometry) (commutative rings and algebras) It is not possible to offer a trivial solution for disambiguating the different meanings which is based only on the words given. Mathematical results and text are produced by an international community. The names of their authors are partly written in character sets other than latin. Even if the text source to be analyzed is written in one language -English in the case of our abstracts from the Zentralblatt MATH -there may be different spellings of names as a result of different methods for transcribing them from their original language. It should therefore be desirable to identify the variants as synonyms. Similarly, spelling variants of each word can be part of a synonym dictionary (we have indicated this already by our aforementioned example characterization or characterisation). It should be kept in mind that is not always trivial to decide whether a spelling variant of a name stands for the same or for another person. To achieve homogeneous results, standardizing of personal names should therefore primarily be seen as a problem of the data integrity of the text source and not as much as part of an a posteriori analyzing and indexing procedure

    Evit@

    Get PDF
    Evit@ stellt ein Bewertungsinstrument bereit, mit dessen Hilfe qualitative Aussagen über elektronische Informationsmittel möglich werden. Für die erste Phase des Projektes standen offline (insbesondere CD-ROM-) Produkte wegen ihres besonderen Marktanteiles im Vordergrund. Eine Stärke des Verfahrens liegt dabei auf der vergleichenden Produktanalyse und auf einem weitgehend entindividualisierten Ansatz. Entwickelt wurde das Verfahren auf der Basis einer umfangreichen Analyse der überwiegend in der angloamerikanischen Fachliteratur publizierten Kriterien zur Analyse und Bewertung von Informationsmitteln. Das entwickelte Kriteriensystem geht in seiner Differenziertheit über alle bisherigen Ansätze hinaus. Insbesondere eignet sich das Verfahren zur produkttypenbezogenen Gewichtung bei der quantifizierenden Beschreibung aller wesentlichen Eigenschaften und Leistungsmerkmale elektronischer Informationsmittel (z.B. bei Handhabung, Suche und Navigation). Ausgeklammert bleiben dabei bislang die rein inhaltsbezogenen Aspekte. Über eine eigens entwickelte Softwarekomponente kann das Bewertungsergebnis sowohl auf jede einzelne Kategorie bezogen als auch in Form eines kondensierten Endergebnisses dargestellt werden. Diese Ergebnisse können im Sinne eines Qualitätsurteils Hilfestellung für Auswahl und Kaufentscheidungen bieten. Für Produzenten elektronischer Informationsmittel kann das Kriteriensystem darüber hinaus als Checkliste zur Qualitätssicherung eingesetzt werden. Dieser Projektbericht beschreibt den Projektverlauf, die Projektergebnisse und die möglichen Projektfortsetzungen

    Evit@ : Evaluation elektronischer Informationsmittel

    Get PDF
    Evit@ stellt ein Bewertungsinstrument bereit, mit dessen Hilfe qualitative Aussagen über elektronische Informationsmittel möglich werden. Für die erste Phase des Projektes standen offline (insbesondere CD-ROM-) Produkte wegen ihres besonderen Marktanteiles im Vordergrund. Eine Stärke des Verfahrens liegt dabei auf der vergleichenden Produktanalyse und auf einem weitgehend entindividualisierten Ansatz. Entwickelt wurde das Verfahren auf der Basis einer umfangreichen Analyse der überwiegend in der angloamerikanischen Fachliteratur publizierten Kriterien zur Analyse und Bewertung von Informationsmitteln. Das entwickelte Kriteriensystem geht in seiner Differenziertheit über alle bisherigen Ansätze hinaus. Insbesondere eignet sich das Verfahren zur produkttypenbezogenen Gewichtung bei der quantifizierenden Beschreibung aller wesentlichen Eigenschaften und Leistungsmerkmale elektronischer Informationsmittel (z.B. bei Handhabung, Suche und Navigation). Ausgeklammert bleiben dabei bislang die rein inhaltsbezogenen Aspekte. Über eine eigens entwickelte Softwarekomponente kann das Bewertungsergebnis sowohl auf jede einzelne Kategorie bezogen als auch in Form eines kondensierten Endergebnisses dargestellt werden. Diese Ergebnisse können im Sinne eines Qualitätsurteils Hilfestellung für Auswahl und Kaufentscheidungen bieten. Für Produzenten elektronischer Informationsmittel kann das Kriteriensystem darüber hinaus als Checkliste zur Qualitätssicherung eingesetzt werden. Dieser Projektbericht beschreibt den Projektverlauf, die Projektergebnisse und die möglichen Projektfortsetzungen

    Rezeption externalisierten Wissens : ein konstruktivistisches Modell auf der Basis von Poppers Drei Welten und Searles Kollektiver Intentionalität

    Get PDF
    Reception of externalized knowledge : a constructivist model on the basis of Popper’s Three Worlds and Searle’s Collective Intentionality [translation of the title]. We present a model for knowledge reception from externalized information sources. The model is based on a cognitive understanding of information processing and refers to ideas of an exchange of information in communication processes. Popper's three-world theory with its orientation on falsifiable scientific knowledge is extended by Searle's concept of collective intentionality. This allows a consistent description of the process of externalization and reception of knowledge including everyday knowledge

    Semantische Umfeldsuche im Information Retrieval in Online-Katalogen

    Get PDF
    Sachliche Suchen in bibliothekarischen Online-Katalogen enden häufig mit unbefriedigenden Ergebnissen. Als eine Ursache dafür kann angesehen werden, daß die Gestaltung des Suchprozesses das semantische Umfeld einer Suchanfrage nicht mit einbezieht, daß in Übertragung der Verhältnisse in konventionellen Katalogen am Paradigma des Wort-Matching zwischen Suchwort und Indexat festgehalten wird. Es wird statt dessen das Konzept einer semantischen Umfeldsuche entwickelt und gezeigt, welche Rolle die Verwendung strukturierten Vokabulars dafür spielen kann. Insbesondere wird dargestellt, welche Möglichkeiten Verfahren der wörterbuchgestützten maschinellen Indexierung in diesem Zusammenhang spielen können. Die Ausführungen werden durch Beispiele illustriert

    Rezeption externalisierten Wissens : ein konstruktivistisches Modell auf der Basis von Poppers Drei Welten und Searles Kollektiver Intentionalität

    Get PDF
    Reception of externalized knowledge : a constructivist model on the basis of Popper’s Three Worlds and Searle’s Collective Intentionality [translation of the title]. We present a model for knowledge reception from externalized information sources. The model is based on a cognitive understanding of information processing and refers to ideas of an exchange of information in communication processes. Popper's three-world theory with its orientation on falsifiable scientific knowledge is extended by Searle's concept of collective intentionality. This allows a consistent description of the process of externalization and reception of knowledge including everyday knowledge

    Semantische Umfeldsuche im Information Retrieval in Online-Katalogen

    Get PDF
    Sachliche Suchen in bibliothekarischen Online-Katalogen enden häufig mit unbefriedigenden Ergebnissen. Als eine Ursache dafür kann angesehen werden, daß die Gestaltung des Suchprozesses das semantische Umfeld einer Suchanfrage nicht mit einbezieht, daß in Übertragung der Verhältnisse in konventionellen Katalogen am Paradigma des Wort-Matching zwischen Suchwort und Indexat festgehalten wird. Es wird statt dessen das Konzept einer semantischen Umfeldsuche entwickelt und gezeigt, welche Rolle die Verwendung strukturierten Vokabulars dafür spielen kann. Insbesondere wird dargestellt, welche Möglichkeiten Verfahren der wörterbuchgestützten maschinellen Indexierung in diesem Zusammenhang spielen können. Die Ausführungen werden durch Beispiele illustriert

    Automatische Indexierung unter Einbeziehung semantischer Relationen

    Get PDF
    Im Rahmen von MILOS II wurde das erste MILOS-Projekt zur automatischen Indexierung von Titeldaten um eine semantische Komponente erweitert, indem Thesaurusrelationen der Schlagwortnormdatei eingebunden wurden. Der abschließend zur Evaluierung des Projekts durchgeführte Retrievaltest und seine Ergebnisse stehen im Mittelpunkt dieses Texts. Zusätzlich wird ein Überblick über bereits durchgeführte Retrievaltests (vorwiegend des anglo-amerikanischen Raums) gegeben und es wird erläutert, welche grundlegenden Fragestellungen bei der praktischen Durchführung eines Retrievaltests zu beachten sind
    corecore